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Justificación 


Como interés principal para el desarrollo de esta investigación se encuentra 
el creciente uso de Inteligencia Artificial para la creación de imágenes, las cuales 
por su naturaleza visual se relacionan con los campos del arte, el diseño gráfico e 
ilustración. 

En este sentido, buscamos analizar de manera crítica el papel de la lA como 
herramienta en la práctica artística contemporánea, o incluso considerar la 
posibilidad de terminar con la misma de la forma en como actualmente se le conoce. 
Es importante hacer énfasis en tres herramientas de inteligencia artificial: DALL-E 2, 
Midjourney y Stable Diffusion. Cada una fue desarrollada por tres compañías 
distintas (OpenAl, Midjourney, y Stability.Al, respectivamente). Aunque cada una 
se dirija por rumbo propio, en el fondo comparten una misma característica que 
hace que se consideren revolucionarias; crear imágenes nuevas a partir de una 


simple descripción de texto. 


DALL-E 2 ha ampliado las capacidades de generación de imágenes a partir 
de descripciones de lenguaje natural. Es el sucesor de DALL-E 1, uno de los 
proyectos con los que OpenAl comenzó a experimentar con los sistema de texto a 
imagen, pero que jamás salió al público. 

El 6 de Abril de 2022 OpenAl anunció DALL-E 2, junto con sus intenciones de 
hacer público su software a lo largo de varios meses, concretando dicho objetivo 
hasta el mes de Septiembre. Creando composiciones más expansivas y editando 
imágenes existentes con un realismo impresionante. Además, puede generar 
variaciones de una imagen original con mayor resolución y realismo que su versión 
anterior1. Este avance ha implicado una serie de desafíos éticos y de seguridad, 
que OpenAl ha tratado a través de varias mitigaciones, incluyendo la prevención de 


generaciones dañinas y la supervisión de contenidos. 


Midjourney, por su parte, es una herramienta que también genera imágenes 
a partir de descripciones en lenguaje natural. Fue creada por Midjourney, Inc., una 
empresa de investigación independiente con sede en San Francisco. La plataforma 
de generación de imágenes de Midjourney entró en beta abierta en julio de 2022 y 


ha evolucionado rápidamente, lanzando nuevas versiones de su algoritmo cada 


pocos meses. Actualmente, la herramienta es accesible a través de un bot de 
Discord, lo que permite a los usuarios interactuar con la IA para crear arte de una 
manera relativamente accesible. La plataforma ha encontrado su lugar en la 
industria de la publicidad, donde es utilizada para prototipos rápidos de conceptos 
artísticos y para la creación de contenido original. 

A pesar de la información recopilada, se requiere una exploración más detallada de 
la herramienta de lA Stable Diffusion y de su impacto en el campo del arte y del 
diseño gráfico. Además, aún no hemos profundizado en cómo estos sistemas de IA 


se relacionan con los fenómenos presentes en el contexto histórico actual. 


La existencia y uso de estas herramientas de IA abre un nuevo campo de 
interrogantes que merecen ser investigadas. ¿Cómo están cambiando estas 
herramientas nuestra concepción del arte y la creatividad?, ¿Cómo interactúan los 
artistas y diseñadores gráficos con estas tecnologías y cómo las incorporan en sus 
prácticas?, ¿Cómo se están abordando los desafíos éticos y de seguridad 
inherentes a estas tecnologías? A través de esta investigación, esperamos arrojar 
luz sobre estos y otros aspectos cruciales de la intersección entre la lA y las artes 


visuales. 


Historia de la creación de imágenes por Inteligencia Artificial. 


La inteligencia artificial, por novedosa que suene, existe desde hace al menos 
80 años. En 1943, Warren McCulloch y Walter Pitts, presentaron un modelo 
matemático que simula el comportamiento de una neurona a través de una suma 


ponderada. Ese modelo es el principio de cualquier sistema de inteligencia artificial. 


En cuestión de imágenes, en 1957 Frank Rosenblatt presentó el perceptrón, 
un sistema que a través de algoritmos matemáticos buscaban patrones comunes 
entre imágenes para así poder clasificarlos. El principal problema de este modelo es 
que en caso de necesitar reconocer un nuevo concepto, había que re-ajustar los 
parámetros. Estos sistemas para reconocer imágenes son antesala de los sistemas 
que permiten crearlas. Otros logros en la materia fueron Eigenface (1991), y 
FERET (1997), ambos capaces de reconocer rostros. 


Fue hasta 2014 que el estudiante lan Goodfellow y sus colaboradores la 
Universidad de Montreal crearon las redes generativas adversarias (RGAs, o GANS, 
en inglés). El funcionamiento general es simple: hay dos sistemas, uno se encarga 
de crear imágenes y el otro evalúa el nivel de realismo y credibilidad, a partir de ahí 
la red generadora tratará de crear imágenes que satisfagan los criterios de la 


evaluadora, y la evaluadora tratará de subir los estándares de esos criterios. 


Con base en lo anterior, en 2015 Google anunció Deepdream, un algoritmo 
entrenado con millones de imágenes que interpretaba formas reconocibles encima 
de cualquier imagen que se introdujera. Es cierto que este sistema no creaba las 
imágenes desde cero o a partir de una entrada de texto, pero poder alterar una 
imagen existente para añadir elementos que inicialmente no estaban ahí fue un 
progreso importante para el desarrollo de la IA. 

En 2018 fueron presentadas BigGAN y StyleGAN. Ambas funcionaban a partir de 
imágenes divididas en clases, por ejemplo, a un conjunto de imágenes se le 
asignaba la clase “perro” y a otro la clase “gato”. La única limitante es que no podía 


generar contenido juntando ambas categorías. Si se quería generar la imagen de un 


gato al lado de un perro entonces había que re-entrenar al sistema y añadir la clase 
“un gato y un perro”. Y lo mismo por cada nuevo elemento que se quisiese añadir. 
Dos años después, en 2020, la empresa de Inteligencia Artificial “OpenAl” anunció 
“Image-GPT”, un modelo de generación de imagen basado en la misma tecnología 
de otro producto de OpenAl, GPT-2, un modelo de generación de texto. 

Las características principales de Image-GPT fueron la generación de imágenes 
coherentes sin necesidad de etiquetas humanas (lo que significa que ninguna 
imagen recibió nombre a la hora de entrenar el modelo), y del mismo modo también 
puede completar imágenes que se encuentren incompletas. 

Debido a que en años anteriores ya se habían hecho modelos de visión y 
clasificación notablemente útiles (CaptionBot, MobileNet, ResNet50, etc), pero 
limitados por la cuestión antes mencionada de las clases, etiquetas o categorías. Es 
entonces que en Enero de 2021 OpenAl también hizo su aporte al lanzar CLIP, un 
modelo de visión que se encarga de clasificar imágenes y descripciones, de modo 
en que trata de emparejar lo mejor posible uno con otro sin depender de las clásicas 
categorías rígidas y unidimensionales. 

Dentro de todo el contexto había una pregunta importante. Si a través de una red 
neuronal se puede ingresar una imagen y obtener una descripción ¿Por qué no 
sería posible hacer lo contrario? Ingresar una descripción y obtener una imagen que 
concuerde con ella. En ese mismo mes, Enero de 2021, OpenAl también anunció 
DALL-E. La primera versión de DALL-E fue un modelo de texto a imagen que podía 
generar imágenes originales y creativas a partir de una descripción en lenguaje 
natural. El objetivo finalmente se había logrado, pero el producto no era accesible al 
público. Fue así que tres meses más tarde, en Abril de 2021, un grupo de 
investigación independiente sobre inteligencia artificial lanzó VWVAGAN+CLIP, una IA 
de generación de imágenes basada en el uso de GANS y la anteriormente 
mencionada tecnología de CLIP. VAGAN+CLIP marcó un antes y un después, 
debido a su amplio acceso y a la implementación de dos tecnologías que ya estaban 
disponibles, aunque su desventaja era el no poder crear imágenes del todo 
coherentes, sin embargo fue bastante bien recibida en su momento. 

OpenAl continuó con otro modelo llamado GLIDE, cuya principal diferencia con 
DALL-E es que trabaja con modelos de difusión en lugar de GANs. A grandes 
rasgos, los modelos de difusión convierten una imagen de ruido aleatorio en la 


imagen requerida según el texto. A diferencia de DALL-E, GLIDE se filtró al público, 


pero no tuvo una gran repercusión a pesar de estar accesible. 
El punto de inflexión para la creación de imágenes por inteligencia artificial sucedió 
con la salida de DALL-E 2. 


DALL-E 2 es la segunda versión de DALL-E, y fue presentada en julio de 2022. Su 
funcionamiento se basa en el proceso de difusión, con el que ya se había 
experimentado a través de GLIDE. Hubo mejoras con DALL-E 2, pues este modelo 
ya podía combinar conceptos, atributos y estilos de forma más sofisticada y diversa 
que DALL-E, además de generar imágenes de mayor tamaño (1024 x 1024 
pixeles). Todo esto ofreció nuevas posibilidades creativas y aplicaciones prácticas. 
Sin embargo, también planteó desafíos éticos y legales sobre el uso responsable de 
las nuevas tecnologías y el respeto a los derechos de autor. 

DALL-E 2 era realmente novedoso. Que un sistema informático pudiera crear 
imágenes gráficamente coherentes a partir de una descripción de texto y con la 
capacidad de emular cualquier estilo artístico, fotográfico, e incluso dar lugar a 
conceptos que solo podían existir en la imaginación lo hacían interesante. Esas 
características fueron logradas por otros dos modelos que salieron casi a la par: 


Stable Diffusion y Midjourney. 


Stable Diffusion se lanzó al público el 22 de Agosto de 2022. Permite generar 
imágenes de alta calidad a partir de descripciones en lenguaje natural. Fue 
desarrollado por la empresa Stability Al. Su principal ventaja es que se trata de un 
software de código abierto, lo que implica que cualquiera lo puede modificar, 
entrenar y mejorar a su gusto, a diferencia de DALL-E 2 cuyo código se encuentra 
resguardado por OpenAl. Otra ventaja de ser de código abierto es que puede 
implementarse con otras tecnologías como sistemas para agrandar la imagen sin 
perder calidad, o incluso generar archivos de video. 

En Diciembre de 2022, se publicó la versión 2.0, que incorporaba un nuevo 
codificador de texto llamado OpenCLIP, desarrollado por LAION con el apoyo de 
Stability Al. Esta versión mejoraba significativamente la calidad de las imágenes 
generadas en comparación con la versión anterior. 

Por su parte Midjourney fue lanzado en julio de 2022, y fue desarrollado por el 


laboratorio que también lleva el mismo nombre. Desde su lanzamiento ha tenido 4 


actualizaciones importantes que han mejorado la calidad de los resultados y 


agregado nuevas funciones, como combinar elementos de dos imágenes diferentes 


o manejar parámetros muy específicos. Sin embargo, al igual que DALL-E 2, 


Midjourney es una herramienta de pago. 


Los avances más recientes en 2023 para cada una de estas herramientas han sido: 


Un nuevo modelo experimental para DALL-E 2 que fue dado a probar a un 
sector reducido de usuarios. Dicho modelo presenta mejoras con respecto a 
la versión estándar, como mejor comprensión de las descripciones o detalles 
más suaves y precisos en las imágenes. 

Las pruebas para la siguiente versión de Midjourney (la v5), cuyos 
resultados están siendo sometidos a votación de la comunidad de usuarios. 
Dichos resultados apuntan a tener una mayor calidad fotográfica. 

La implementación de nuevas extensiones y herramientas a Stable 
Diffusion, como el uso de mapas de profundidad de mayor precisión, o 
herramientas como Contro/NET, que a través de contornos, dibujos simples u 
otras imágenes permiten un mayor realismo y precisión para los resultados 


generados. 


Softwares más comunes de lA para creación de imágenes. 


DALL-E 2. 

Creado por OpenAl. DALL-E 2 fue el primer software de IA para creación de 
imágenes realistas en ser liberado al público masivo. 
DALL-E 2 permite crear cuatro imágenes a partir de un texto inicial. Los nuevos 
usuarios reciben 50 créditos gratis. Cada crédito les permite generar el texto que 
quieran, además de que la cuenta recibe 15 créditos gratis (no acumulables) cada 
mes. También se pueden comprar créditos. El monto mínimo es un pago de 15 
dólares que otorga 115 créditos al usuario. 
Otras funciones de DALL-E 2 son crear variaciones de imágenes, modificar o 
sustituir elementos, y expandir imágenes. 
DALL-E 2 no se puede descargar. Solo funciona a través de la web de OpenAl o a 


través de las páginas que usen su API. 


e Uso: 


La interfaz de DALL-E 2 es sencilla de usar. Simplemente hay una caja para 
ingresar el texto. Un botón llamado “Surprise Me” que genera un texto aleatorio en 
caso de no tener una idea, y una opción llamada “Upload an image”, que permite 


usar las opciones de modificación, variación y expansión. 
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Resultados para el texto “Watercolor painting of a swimming pool in a parking lot, 


night time”. 


Midjourney. 

MidJourney es una herramienta que permite generar imágenes a partir de texto, 
también conocido como "text to image" creada por un laboratorio independiente que 
se dedica a la investigación de la inteligencia artificial del mismo nombre. 

A diferencia de otros programas que ofrecen esta funcionalidad, MidJourney cuenta 
con una inteligencia artificial muy avanzada que es capaz de crear imágenes 
altamente detalladas, precisas y definidas, con una resolución de hasta 1.792 x 


1.024 píxeles. Todo lo que se necesita es proporcionar un texto descriptivo, que 


servirá como guía para que la IA pueda crear la imagen. Es importante destacar que 


cuanta más información se proporcione, más exacta será la imagen resultante. 


Uso: 


Para utilizar MidJourney, es necesario tener una cuenta en Discord y acceder a su 


canal oficial, ubicado en discord.gg/midjourney. 


Y Midjourney 


line 0 17,904,540 Member 


Accept Invite 


A 


7% bs 


Después de aceptar la invitación, se debe acceder al canal "newbies" y escribir el 


comando /imagine. 


newbies-130 ot ro 


prompt The prom 


imagine 
(>) /imagine prompt 


Esto hará que aparezca la palabra "prompt". A continuación, se debe introducir el 
texto descriptivo en el mismo recuadro, sin borrar la palabra "prompt", para que el 


software pueda crear hasta cuatro imágenes. 
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Después de dar las instrucciones, las imágenes tardarán unos segundos en 
aparecer para que el usuario pueda elegir la que más se ajuste a sus necesidades. 
Es importante proporcionar una descripción detallada para que la IA pueda crear 


una imagen precisa y detallada. 


newbies-130 Bot ro agir dr y [m] (>) 


2 new messages since 1:12 PM Mark As Read YY e 
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Fun cute stickers designs for the summer --s 250 --v 5 - @Phake (fast) 


Resultados para el texto Fun cute stickers designs for the summer --s 250 --v 5 


Repercusiones de la inteligencia artificial en el diseño. 


Las inteligencias artificiales (IA) han sido una revolución completa en el 
campo del diseño, capaces de automatizar tareas repetitivas que suelen ser 
tediosas en el proceso de diseño, obtención de imágenes, creación de plantillas, 
esto permitiéndole a los diseñadores dedicar más tiempo a tareas creativas y 
estratégicas. Siendo capaces de mejorar el diseño y a la vez aumentar la 
personalización para cada cliente. Al igual que puede dedicarse a análisis de datos 
y estadísticas, apoyando y mejorando las decisiones de las campañas al identificar 
patrones, lo que ayuda a los diseñadores a crear diseños más efectivos y 
relevantes. También resultan útiles en la generación de modelos 3D de escenas 
virtuales, (simulación y modelado 3D). La lA está permitiendo a los diseñadores 
trabajar de manera más eficiente y efectiva, ayudándoles a crear diseños 
personalizados, tomar decisiones informadas y analizar tendencias en el mercado 


del diseño. Sin embargo, la lA no podría reemplazar por completo el papel del 


diseñador, ya que se requiere un toque humano y creativo para crear diseños 
efectivos y atractivos. 

Por otra parte, se genera una reducción de los trabajos creativos los cuales 
las IA puede automatizar, esto puede reducir la necesidad de usar diseñadores 
humanos a medida que las IA se vuelven más sofisticadas. 

Se considera que existe una falta de creatividad debido a que las IA se basan en 
algoritmos y datos preestablecidos, lo que significa que carecen del juicio subjetivo 
que los diseñadores humanos pueden ofrecer. Esto puede llevar a la producción de 
diseños estandarizados y aburridos que no podrían destacar ni llamar la atención 
del público. Los diseñadores se pueden volver propensos a depender de esta 
tecnología, por lo que puede afectar negativamente la calidad de los diseños. 

Las IA también pueden cometer errores o producir resultados impredecibles en 
ciertas circunstancias, esto puede llevar a diseños defectuosos o ineficaces que 
pueden ser costosos y perjudiciales para las empresas y clientes. En resumen, 
aunque las IA pueden ofrecer beneficios a la industria del diseño, también pueden 
tener algunos efectos negativos. Es importante que los diseñadores se mantengan 
informados sobre las limitaciones y los riesgos de las IA para que puedan utilizarlas 


de manera efectiva y tomar decisiones informadas sobre cómo y cuando utilizarlas 


Ejemplos reales de uso de inteligencia artificial en diseño y áreas 


relacionadas. 


El 6 de marzo del 2023 la refresquera coca cola lanzó un comercial apoyado por inteligencia 
artificial en su canal de youtube 


El relato trata sobre un estudiante de arte cansado y somnoliento en un museo. Las obras 
de arte cobran vida y los personajes que se encuentran en ellas se organizan para 
entregarle una botella de Coca-Cola en una impresionante danza de colores y estilos. El 
estudiante se despierta al tomar un sorbo refrescante de la Coca-cola. 


Ejemplos gráficos de imágenes hechas a través de inteligencia 


artificial 


Texto ingresado: pato 
lA: DALL-E 2 


Texto ingresado: pato 
IA: Stable Diffusion online 


Texto ingresado: pato 
IA: Midjourney 


Texto ingresado: oso gigante de peluche en la gran manzana 
lA: DALL-E 2 


Wo -i 
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Texto ingresado: oso gigante de peluche en la gran manzana 


lA: Midjourney 


El hardware necesario para empezar a programar o interactuar con estas inteligencias 
artificiales es mínimo debido a las interfaces que nos pueden dar acceso a computadoras 
de mayor potencia y así utilizar sus recursos un ejemplo de esta interface es GOOGLE 
COLAB, kAGGLE de manera gratuita, GOOGLE CLOUD PLATFORM, AMAZON WEB 
SERVICES, RUNWAY ML, TENCENT CLOUD,HUAWEI CLOUD, de pago; Cada una con 


sus ventajas y desventajas. 


Por otra parte tenemos el hardware “físico” valga la redundancia, que ha pasado a tener un 


modelo computacional para muchas funciones CPU, a un modelo especializado y con 


mucho mayor potencia GPU y este poder de procesamiento ha ido incrementando con el 


tiempo como lo podemos ver en la siguiente gráfica . 
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Teniendo como referencia el core ¡9 13900k, el procesador comercial más potente de intel 
tiene 1,740 GFLOPS con un costo de 699 dólares. 


En la siguiente gráfica podemos observar el costo en dólares de solo la electricidad 
consumida. 


GPT-3 
o) 


AlphaGo Zero Gor 
o =S10M 

10" | af 
A : AlphaGo 5 
S f Tesla Autopilot 
= l O AlphaFold 2 
5 105| GPT-2 o 
e F > e 
zZ f € 
$ f 
A 
= 10 Xception B 
Q o 
e 
Z 10 | 
pa 
8 ResNet 
o | o 
Š 10%; 
a | Inception 

101 | AlexNet Visualize Conv Nets 

o Dropout 
10 L 1 1 fi 1 1 1 L 1 
2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 


Year 


Mehonic, Nature 2022 


¿Cómo se recolectan las imágenes para las IAs de imágenes? 


La IA de imagen reúne información mediante una gigantesca biblioteca de obras de 
arte y fotografías. Gracias a esto, cuando le pides que dibuje a una celebridad, 
sabrá a quién te refieres, y dibujará el aspecto que tiene esta persona realizando 
una acción que también sabrá interpretar y dibujar. 


Además de esto, este sistema de inteligencia artificial es también capaz de 
combinar conceptos, estilos y atributos para una imagen. Es decir, si te explayas 
explicándole que quieres ver determinada cosa, especificando detalles o incluso 
estilo artístico, la IA intentará combinarlo todo en la imagen. 

Crear imágenes realistas o pinturas a partir de una descripción de lenguaje natural 


en texto, donde se pueden combinar conceptos, estilos artísticos o características. 


Si bien una persona entrega una sola descripción, la IA tiene la capacidad de crear 
diferentes variaciones de la misma imagen y su funcionamiento se basa en que ha 
aprendido la relación entre las imágenes y el texto que las describe a través de un 


proceso llamado “difusión”. 


Los generadores de imágenes de lA utilizan dos redes neuronales. La primera red 
neuronal crea una imagen, mientras que la segunda juzga qué tan cerca de lo real 


es la imagen, basándose en ejemplos de la vida real de Internet. 


Una vez que se completa la puntuación de precisión de la imagen, los datos se 
envían de vuelta al sistema de lA original. Luego, ese sistema aprende de los 
comentarios y envía una imagen alterada para obtener una puntuación adicional 


hasta que la imagen generada por lA coincida con la imagen de control. 
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Encuesta sobre el uso de Inteligencia Artificial. 


Se realizó una encuesta a la comunidad de alumnos de la Facultad de Artes y 
Diseño de la UNAM. Se registraron un total de 40 respuestas. A continuación se 


muestran las preguntas y los respectivos resultados. 


¿Con cuál de los siguientes sistemas de inteligencia artificial estás familiarizad@? 


37 respuestas 
= A si T a 
Stable Diffusion (Implementado 
en otros productos como 17 (45.9 %) 
Nightcafe.studio, Leonardo.ai,... 
mm AS i di z 


0 5 10 15 20 25 


¿Crees que las inteligencias artificiales pueden reemplazar completamente el trabajo de un 


diseñador, artista o ilustrador? 
40 respuestas 


O sí 
Ó No 


85% 


¿Crees que las Inteligencias Artificiales podrían hacer más rápido y eficiente el proceso de diseño? 


40 respuestas 
@ sí 
Ó No 


Si únicamente se conservase la parte de generar imágenes, con la diferencia de que fuese el propio 
usuario el que entrenase su propia versión del siste...to propias y ajenas). ¿En ese punto ya sería ético? 


40 respuestas 
Ó Sí, porque al tener su propia copia 
60% personalizada la creatividad y la 

responsabilidad vuelven a ser propios 
de cada quien, vuelven a existir una 
autoría, interpretación y creación única. 

@ no, porque de cualquier modo 
cualquiera podría seguir tomando 
ventajas injustas, como apropiarse del 
estilo de alguien más para obra propia o 


40% para vender versiones personalizadas 
del sistema a petición. 


¿Crees que las Inteligencias Artificiales podrían mejorar la precisión y calidad gráfica del diseño o 


imagen? (No solo limitándose a resultados realistas o estéticamente bellos) 
40 respuestas 


O sí 
Ó No 


¿Crees que la inteligencia artificial puede satisfacer más rápido y mejor la necesidad de un cliente a 


diferencia de un diseñador / artista humano? 
40 respuestas 


O sí 
Ó No 


Conclusiones 
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